为N($ ^ 4 $ s)+ o $ _呈现和定量测试了一种用于预测来自特定初始状态(状态为分布或STD)的产品状态分布的机器学习(ML)模型。 {2} $(x $ ^ 3 \ sigma _ {\ rm g} ^ { - } $)$ \ lightarrow $ no(x $ ^ 2 \ pi $)+ o($ ^ 3 $ p)反应。用于训练神经网络(NN)的参考数据集由用于$ \ SIM 2000 $初始条件的显式准古典轨迹(QCT)模拟确定的最终状态分布。总体而言,通过根均方平方差价量化的预测精度$(\ SIM 0.003)$和$ r ^ 2 $ $(\ SIM 0.99)$之间的参考QCT和STD模型的预测很高测试集和离网状态特定的初始条件和从反应性状态分布中汲取的初始条件,其特征在于通过平移,旋转和振动温度。与在相同的初始状态分布上评估的更粗糙的粒度分布 - 分布(DTD)模型相比,STD模型表明了在反应物制剂中的状态分辨率的额外益处具有相当的性能。从特定的初始状态开始,还导致更多样化的最终状态分布,需要更具表现力的神经网络与DTD相比。显式QCT模拟之间的直接比较,STD模型和广泛使用的Larsen-Borgnakke(LB)模型表明,STD模型是定量的,而LB模型最适合旋转分布$ P(J')$和失败振动分布$ p(v')$。因此,STD模型可以非常适合模拟非预测高速流,例如,使用直接仿真蒙特卡罗方法。
translated by 谷歌翻译
This letter focuses on the task of Multi-Target Multi-Camera vehicle tracking. We propose to associate single-camera trajectories into multi-camera global trajectories by training a Graph Convolutional Network. Our approach simultaneously processes all cameras providing a global solution, and it is also robust to large cameras unsynchronizations. Furthermore, we design a new loss function to deal with class imbalance. Our proposal outperforms the related work showing better generalization and without requiring ad-hoc manual annotations or thresholds, unlike compared approaches.
translated by 谷歌翻译
Graphic layout designs play an essential role in visual communication. Yet handcrafting layout designs are skill-demanding, time-consuming, and non-scalable to batch production. Although generative models emerge to make design automation no longer utopian, it remains non-trivial to customize designs that comply with designers' multimodal desires, i.e., constrained by background images and driven by foreground contents. In this study, we propose \textit{LayoutDETR} that inherits the high quality and realism from generative modeling, in the meanwhile reformulating content-aware requirements as a detection problem: we learn to detect in a background image the reasonable locations, scales, and spatial relations for multimodal elements in a layout. Experiments validate that our solution yields new state-of-the-art performance for layout generation on public benchmarks and on our newly-curated ads banner dataset. For practical usage, we build our solution into a graphical system that facilitates user studies. We demonstrate that our designs attract more subjective preference than baselines by significant margins. Our code, models, dataset, graphical system, and demos are available at https://github.com/salesforce/LayoutDETR.
translated by 谷歌翻译
The understanding capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of image, text, and 3D point cloud by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models will be released.
translated by 谷歌翻译
联合学习是一种在网络边缘训练机器学习模型的方法以及数据隐私问题。这种学习范式需要对设备异质性和数据异质性的鲁棒算法。本文提出MODFL作为联合学习框架,将模型分为配置模块和操作模块,从而实现了各个模块的联合学习。这种模块化方法使从一组异质设备以及用户产生的非IID数据中提取知识。该方法可以看作是通过个性化层FEDPER框架来解决数据异质性的范围的联合学习的扩展。我们表明,使用CNN的MODFL优于CIFAR-10和STL-10的非IID数据分区的FEDPER。我们在使用RNN的Hapt,RWHAR和WISDM数据集的时间序列数据上的结果尚无定论,我们认为所选数据集并未突出MODFL的优势,但在最坏的情况下,它和FedPer一样。
translated by 谷歌翻译
近年来,人们对多任务学习的兴趣越来越多。在这项工作中,我们通过合并模型应在模型不应该执行的两项辅助任务的两种辅助任务和对抗性任务中,提出了多任务学习的广义概念。我们采用必要的条件分析(NCA)作为数据驱动的方法来确定这些任务应该属于哪个类别。我们的新颖拟议框架,对抗性多任务神经网络(AMT),对NCA确定的对抗性任务进行惩罚,由NCA确定为场景识别在整体视频理解(HVU)数据集中,以改善动作识别。这更颠覆了一个普遍的假设,即应始终鼓励模型在多任务学习中完成所有任务。同时,AMT仍然保留多任务学习作为现有方法的概括的所有好处,并将对象识别作为辅助任务来帮助行动识别。我们介绍了HVU的两个具有挑战性的场景不变的测试分裂,其中对模型进行了对训练中未遇到的动作场合共发生的评估。我们表明,我们的方法将准确性提高了约3%,并鼓励模型参与动作功能,而不是相关的偏见场景功能。
translated by 谷歌翻译
我们介绍了SLCN出生预测时胎龄(临床神经影像学表面学习)挑战的方法。我们的方法基于一种多视图形状分析技术,该技术从不同的角度捕获3D对象的2D渲染。我们在球体表面上呈现大脑特征,然后通过2D CNN分析2D图像,并针对回归任务进行注意力层。回归任务在天然空间上达到1.637 +-1.3的MAE,模板空间上的MAE为1.38 +-1.14。该项目的源代码可在我们的GitHub存储库中获得https://github.com/mathieuleclercq/slcn_challenge_unc_unc_unc
translated by 谷歌翻译
数码相机的加速使用引起了人们对隐私和安全性的日益关注,尤其是在诸如行动识别之类的应用程序中。在本文中,我们提出了一个优化框架,以沿着人类行动识别管道提供强大的视觉隐私保护。我们的框架参数化了相机镜头,以成功地降低视频的质量,以抑制隐私属性并防止对抗性攻击,同时保持相关功能以进行活动识别。我们通过广泛的模拟和硬件实验来验证我们的方法。
translated by 谷歌翻译
近年来,手性磁铁吸引了大量的研究兴趣,因为它们支持了各种拓扑缺陷,例如天空和bimerons,并通过多种技术允许其观察和操纵。它们在Spintronics领域也具有广泛的应用,尤其是在开发用于存储存储设备的新技术方面。但是,这些实验和理论研究中产生的大量数据需要足够的工具,其中机器学习至关重要。我们使用卷积神经网络(CNN)来识别手性磁铁热力学阶段中的相关特征,包括(抗)天际,bimeron,以及螺旋和铁磁状态。我们使用灵活的多标签分类框架,该框架可以正确分类,其中混合了不同的特征和相位。然后,我们训练CNN从晶格蒙特卡洛模拟的中间状态的快照中预测最终状态的特征。训练有素的模型允许在编队过程中可靠地识别不同阶段。因此,CNN可以显着加快3D材料的大规模模拟,这些模拟迄今为止一直是定量研究的瓶颈。此外,这种方法可以应用于手性磁体的现实世界图像中混合状态和新兴特征的识别。
translated by 谷歌翻译
大多数机器学习(ML)方法假设训练阶段使用的数据来自目标人群。但是,实际上,一个经常会面对数据集偏移,如果考虑到未正确考虑的话,可能会降低ML模型的预测性能。通常,如果从业人员知道正在发生哪种轮班类型(例如,协变量转移或标签转移),他们可能会采用转移学习方法来获得更好的预测。不幸的是,当前用于检测移位的方法仅设计用于检测特定类型的偏移或无法正式测试其存在。我们介绍了一个一般和统一的框架,该框架通过检测不同类型的变化和量化它们的强度来提供有关如何改善预测方法的见解。我们的方法可用于任何数据类型(表格/图像/文本)以及分类和回归任务。此外,它使用正式的假设测试来控制虚假警报。我们说明了我们的框架在实践中使用人工和真实数据集的实践有用,包括一个示例,说明了我们的框架如何导致洞察力确实可以提高监督模型的预测能力。我们用于数据集偏移检测的软件包可以在https://github.com/felipemaiapolo/detectshift中找到。
translated by 谷歌翻译